与自然语言解释的视觉结合旨在推断文本图像对之间的关​​系并生成句子以解释决策过程。先前的方法主要依靠预先训练的视觉模型来执行关系推断和语言模型来生成相应的解释。但是,预训练的视觉模型主要在文本和图像之间建立令牌级别的对齐,但忽略了短语(块)和视觉内容之间的高级语义对齐,这对于视觉推理至关重要。此外,仅基于编码的联合表示形式的解释生成器并未明确考虑关键的关系推理的决策点。因此,产生的解释不太忠于视觉语言推理。为了减轻这些问题,我们提出了一种统一的块意见对齐和基于词汇约束的方法,称为CALEC。它包含一个块感知的语义交互器(ARR。CSI),一个关系属性和词汇约束感知的发生器(arr。Lecg)。具体而言,CSI利用语言和各个图像区域固有的句子结构来构建块感知语义对齐。关系下属使用基于注意力的推理网络来合并令牌级别和块级视觉语言表示。 LECG利用词汇约束来将关系下列者重点关注的单词或块纳入解释世代,从而提高了解释的忠诚和信息性。我们在三个数据集上进行了广泛的实验,实验结果表明,CALEC在推理准确性和生成的解释的质量方面显着优于其他竞争者模型。
translated by 谷歌翻译
对话系统已取得了重大进展,并已在各种情况下广泛使用。先前的研究主要集中在单个情况下设计对话模型,而在现实世界中各种情况下处理任务需要全面的能力。在本文中,我们提出了一个通用的多技能对话框框架,即MSDF,可以应用于不同的对话框任务(例如,知识接地对话框和基于角色的对话框)。具体而言,我们提出了一个可转移的响应生成器,以在多种大规模对话库中进行预训练,作为MSDF的骨干,由基于BERT的编码器和基于GPT的解码器组成。为了选择与对话记录一致的响应,我们提出了一个通过负抽样训练的一致性选择器。此外,还采用了外部知识的灵活复制机制来增强各种情况下多形知识的利用。我们对知识接地对话,建议对话框和基于角色的对话任务进行实验。实验结果表明,我们的MSDF的表现优于基线模型。在2021年语言和情报挑战的多技能对话中,我们的一般MSDF赢得了第三奖,这证明我们的MSDF具有有效且具有竞争力。
translated by 谷歌翻译
医学对话生成是一项重要但具有挑战性的任务。以前的大多数作品都依赖于注意力机制和大规模预处理的语言模型。但是,这些方法通常无法从长时间的对话历史中获取关键信息,从而产生准确和信息丰富的响应,因为医疗实体通常散布在多种话语中以及它们之间的复杂关系。为了减轻此问题,我们提出了一个具有关键信息召回(Medpir)的医疗响应生成模型,该模型建立在两个组件上,即知识吸引的对话图形编码器和召回增强的生成器。知识吸引的对话图编码器通过利用话语中的实体之间的知识关系,并使用图形注意力网络对话图来构建对话图。然后,召回增强的发电机通过在产生实际响应之前生成对话的摘要来增强这些关键信息的使用。两个大型医学对话数据集的实验结果表明,Medpir在BLEU分数和医疗实体F1度量中的表现优于强大的基准。
translated by 谷歌翻译
联合学习(FL)在分布式客户端上培训机器学习模型,而不会暴露单个数据。与通常基于仔细组织的数据的集中培训不同,FL处理通常不混阻和不平衡的设备数据。因此,处理所有数据的传统流行训练协议同样地导致浪费本地计算资源,并减慢全局学习过程。为此,我们提出了一个系统性的FLBalancer,它积极选择客户的培训样本。我们的示例选择策略在尊重客户端的隐私和计算能力的同时优先确定更多“信息性”数据。为了更好地利用样本选择来加速全球培训,我们进一步推出了一种自适应截止日期控制方案,该方案预测每个轮的最佳截止日期,具有不同的客户端列车数据。与具有截止日期配置方法的现有流算法相比,我们对三个不同域的五个数据集的评估表明,FedBalancer将时间至准确性的性能提高1.22〜4.62倍,同时提高模型精度1.0〜3.3%。我们还表明,通过展示在与三种不同的FL算法共同运行时,FedBalancer提高了收敛速度和准确性,可以随时适用于其他流动方法。
translated by 谷歌翻译
已知人体大脑能够通过更快的内存编码和在激活的神经元上访问程序来加速反复呈现对象的视觉识别。我们首次借用并将这种能力归入语义记忆设计,即SMTM,以改善设备上的CNN推断。 SMTM采用分层内存架构来利用感兴趣对象的长尾分布,并进一步融合了几种新颖的技术来将其放入效果:(1)它将高维特征映射到低维,语义向量中,用于低 - 成本准确的缓存和查找; (2)它使用一种小型度量来确定考虑不同层的固有特征的退出时间; (3)它自适应地调整缓存大小和语义向量以适应场景动态。 SMTM在商品CNN发动机上原型设计,并在移动CPU和GPU上运行。大规模数据集和模型的广泛实验表明,SMTM可以显着加快标准方法(最多2x)和先前缓存设计(高达1.5倍)的模型推断,可接受的精度损耗。
translated by 谷歌翻译
The generation of Chinese fonts has a wide range of applications. The currently predominated methods are mainly based on deep generative models, especially the generative adversarial networks (GANs). However, existing GAN-based models usually suffer from the well-known mode collapse problem. When mode collapse happens, the kind of GAN-based models will be failure to yield the correct fonts. To address this issue, we introduce a one-bit stroke encoding and a few-shot semi-supervised scheme (i.e., using a few paired data as semi-supervised information) to explore the local and global structure information of Chinese characters respectively, motivated by the intuition that strokes and characters directly embody certain local and global modes of Chinese characters. Based on these ideas, this paper proposes an effective model called \textit{StrokeGAN+}, which incorporates the stroke encoding and the few-shot semi-supervised scheme into the CycleGAN model. The effectiveness of the proposed model is demonstrated by amounts of experiments. Experimental results show that the mode collapse issue can be effectively alleviated by the introduced one-bit stroke encoding and few-shot semi-supervised training scheme, and that the proposed model outperforms the state-of-the-art models in fourteen font generation tasks in terms of four important evaluation metrics and the quality of generated characters. Besides CycleGAN, we also show that the proposed idea can be adapted to other existing models to improve their performance. The effectiveness of the proposed model for the zero-shot traditional Chinese font generation is also evaluated in this paper.
translated by 谷歌翻译
激活函数是元素的数学函数,在深神经网络(DNN)中起着至关重要的作用。已经提出了许多新颖和复杂的激活功能来提高DNN的准确性,但在训练过程中还可以通过反向传播消耗大量记忆。在这项研究中,我们提出了嵌套的正向自动分化(正向AD),专门针对用于记忆效率的DNN训练的元素激活函数。我们在两个广泛使用的深度学习框架(Tensorflow和Pytorch)中部署了嵌套的AD,分别支持静态和动态计算图。我们的评估表明,在相同的记忆降低率下,嵌套的前AD嵌套将记忆足迹降低到1.97倍,比基线模型降低了20%。
translated by 谷歌翻译
量化是一种降低DNN模型的计算和记忆成本的技术,DNN模型越来越大。现有的量化解决方案使用固定点整数或浮点类类型,这些量子的好处有限,因为两者都需要更多位以保持原始型号的准确性。另一方面,可变长度量化使用低位量化对正常值和高精度的分数对异常值的一部分。即使这项工作带来了算法的好处,但由于长度的编码和解码,它也引入了重要的硬件开销。在这项工作中,我们提出了一种称为ANT的固定长度自适应数值数据类型,以通过微小的硬件开销实现低位量化。我们的数据类型ANT利用了两项关键创新来利用DNN模型中的张贴内和调整的自适应机会。首先,我们提出了一种特定的数据类型Flint,该数据类型结合了Float和INT的优势,以适应张量中不同值的重要性。其次,我们提出了一个自适应框架,该框架根据其分布特性选择每个张量的最佳类型。我们为蚂蚁设计了统一的处理元件体系结构,并显示其与现有DNN加速器的易于集成。我们的设计导致2.8 $ \ times $速度和2.5 $ \ times $ $ $ $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $ $ \ times $比最先进的量化加速器提高了能源效率。
translated by 谷歌翻译
轻巧的人群计数模型,尤其是基于知识蒸馏(KD)的模型,由于其对计算效率和硬件需求的优越性,近年来吸引了人们的关注。但是,现有的基于KD的模型通常会遇到容量差距问题,从而导致学生网络的性能受到教师网络的限制。在本文中,我们通过在研究过程中引起了人类养生机制的审查机制,通过引入新的审查机制来解决这个问题。因此,提出的模型被称为ReviewKD。所提出的模型包括指导阶段和审查阶段,我们首先利用训练有素的重型教师网络将其潜在特征转移到指导阶段的轻量级学生网络中,然后在审核阶段中产生了精致的估计。密度图通过审查机制基于学习的功能。与最新模型相比,通过六个基准数据集的一组实验证明了评论KD的有效性。数值结果表明,ReviewKD的表现优于现有的轻量级模型用于人群计数,并且可以有效缓解容量差距问题,尤其是在教师网络之外的表现。除了轻巧的型号外,我们还表明,建议的审查机制可以用作插件模块,以进一步提高一种沉重的人群计数模型的性能,而无需修改神经网络体系结构并引入任何其他模型参数。
translated by 谷歌翻译
由于其免费形式和丰富的信息,收入电话会议吸引了越来越多的研究人员。但是,现有的研究不考虑说话者角色信息。此外,当前的研究并未充分说明公司间关系对公司风险的影响。唯一整合公司网络和收益电话会议的研究是为在不同日期举行收益电话会议的公司构建的无向图表,未能满足没有针对预测任务的时间信息泄漏的要求。为了解决上述问题,我们提出了一个名为“时间虚拟图神经网络(TVGNN)”的新模型,该模型结合了收入电话会议和公司网络以预测公司风险。我们的模型首次将参与者角色信息包含在对话建模中。此外,我们开发了一种新方法来构建公司网络,以确保图表中没有时间信息泄漏。在实验中,我们提出的模型的表现优于所有基准。补充分析证明了该模型的有效性和解释性。
translated by 谷歌翻译